iT邦幫忙

2025 iThome 鐵人賽

DAY 2
0
AI & Data

AI初學者入門系列 第 2

Day2 GPT / LLM 模型和神經架構

  • 分享至 

  • xImage
  •  

LLM(大型語言模型,Large Language Model):

指擁有「上億到千億參數」的深度學習模型,能理解並生成自然語言。LLM是總稱,常見的有GPT 系列、BERT、T5、LLaMA……得模型。

GPT(Generative Pre-trained Transformer, 生成式預訓練模型):

目標是根據「前面的文字」預測「下一個字」,藉此產生連貫的語句。
它由兩個階段構成:

  1. Pre-training 預訓練:使用大量網路文字學習語言知識。
  2. Fine-tuning 微調:根據特定任務(如翻譯、問答)進行進一步訓練。

GPT 是 Transformer 架構的應用,所以只具備「Decoder-only」的單向架構。

基本的神經架構名詞

CNN(Convolutional Neural Network):

  • 最初是為了圖像識別而設計(如 LeNet、AlexNet)
  • 2014 年被提出可以用來處理 NLP 問題,如文本分類,透過卷積核提取局部特徵(例如詞組、片語)
  • 限制: 難以處理上下文關聯

RNN(Recurrent Neural Network)

  • 傳統全連接神經網路(Feedforward)無法處理時間序列,所以發展出「時間步進(Time Step)」,就是有時間順序的
  • 缺點: 隨著時間記憶慢慢消失
    1. 長期依賴問題(Long-Term Dependency Problem)
    2. 容易出現「梯度消失 / 爆炸」

LSTM(Long Short-Term Memory)

  • 為了解決 RNN 記憶不住長距離資訊
  • 加入 記憶單元(cell state) 與三個門控機制: 遺忘門、輸入門、輸出門,才能夠「選擇性地保留或遺忘資訊」
  • 缺點是訓練時間長(逐字處理)、無法並行化(多個資料不能一起處理)

Transformer

  • 完全捨棄 RNN 結構,改用「Self-Attention 機制」: 同時關注整句中任意位置的詞 和具備並行運算能力
  • Transformer 在性能與語言理解上全面超越 RNN,是目前 NLP 主流架構,發展出BERT、GPT、T5
    、BART、XLNet、LLaMA、ChatGPT……

補充:

Token 是什麼?
指語言模型處理文字的最小單位,也就是電腦可以看得懂的最小單位。
操作順序為 將文字轉換成 Token → 轉換成向量~~以後章節會提到

Encoder 和 Decoder 是什麼 ?
是兩個基本結構單元,用來「理解輸入」和「生成輸出」

  1. Decoder-only: 生成式任務 (對話、寫作、摘要)
    主要用途: 依序預測下一個 token
  2. Encoder-only: 專注理解輸入(雙向)
    主要用途: 分類、NER、情感分析
  3. Encoder-Decoder: 編碼輸入 → 解碼輸出,適合輸入和輸出都有語意任務
    主要用途: 翻譯、摘要、問答、語意轉換

上一篇
Day1 AI 概論與應用場景
下一篇
Day3 介紹Hugging Face
系列文
AI初學者入門30
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言